http://www.exmaralda.org

EXMARaLDA – это аббревиатура для «язык XML для Дискурса Аннотации». Представляет собой систему понятий, форму представления данных и инструменты как для автоматизированной транскрипции и аннотации разговорного языка, так и для построения и анализа корпуса разговорного языка. EXMARaLDA первоначально была разработана в рамках проекта «Автоматизированные методы для создания и анализа многоязычных данных» в Совместном Исследовательском Центре «Multilingualism» («Многоязычие») (Sonderforschungsbereich "Mehrsprachigkeit" - SFB 538) в Гамбургском Университете. С июля 2011 года, разработка EXMARaLDA продолжается в Гамбургском Центре Языкового корпуса. Все компоненты системы EXMARaLDA в бесплатном доступе пользователям за пределами Университета Гамбурга.
000.jpg

Основные особенности EXMARaLDA:
  • Основанная на XML форма представления данных
Все данные EXMARaLDAхранятся в XML-файлах. Использование данного стандарта W3C обеспечивает гибкое удобство и долгосрочную архивируемость данных.
  • Основанные на Java инструменты
Все программные инструменты для создания и работы с данными EXMARaLDA (Редактор частей, Корпус менеджер и инструмент запроса EXAKT) – это приложения Java. Это делает их подходящими для всех используемых в настоящее время операционных систем (Windows, Macintosh, Linux, Unix).
  • Совместимость
Методология EXMARaLDA основана на графической структуре аннотации (Bird/Liberman 2001) и это направленно на максимальную взаимозаменяемость и возможность многократного использования транскрипции данных. Таким образом, можно создавать и редактировать данные EXMARaLDA не только собственными инструментами системы, но так же и другими известными программами (например, Praat, ELAN, Transcriber или FOLKER).
Кроме того, данные EXMARaLDA могут быть преобразованы в ряд широко используемых форматов (RTF, HTML, PDF) для публикации в веб или печатной публикации. И наконец, EXMARaLDA поддерживает несколько важных систем транскрипции (HIAT, DIDA, GAT, CHAT) через ряд параметризованных функций.

Демо-корпус EXMARaLDA
Демо-корпус EXMARaLDA – это небольшой корпус, с помощью которого можно проверить функциональность системы EXMARaLDA.
000_1.jpg

Демо-корпус содержит
метаданные для
коммуникации и говорящих
Все данные доступны в
нескольких вариантах
транскрипции и
представлении
Транскрипции связаны с аудио
Демо-корпус многоязычен
(англ., нем., турецкий, фр.,
исп.)

Демо-корпус содержит следующие записи и транскрипции:
9_9.jpg
  • Beckhams – Американское ток-шоу с Дэвидом Бекхэмом и его женой
  • MontyPython: MyTheory– Английская транскрипция Мисс Эльк, представляющей свою теорию о бронтозаврах (любое сходство с живыми лингвистами простая случайность)
  • PaulMcCartney: Interview – Английская транскрипция интервью с молодым, амбициозным Полом Маккартни
  • PearStory – Английская транскрипция пересказа Уоллеса Чейфа История Груши
10_10.jpg
  • RudiVӧller: Wutausbruch – легендарный приступ ярости менеджера Немецкой национальной футбольной команды
  • HelgeSchneider: Tropfsteinhöhle – коротенькая аудио-пьеса Немецкой актрисы Хельги Шнайдер, которая включает параллели говорящих
  • HubertFichte: Interview – интервью, проведенное нем. писателем Губертом Фихте в районе Св. Паули, Гамбург
  • HelgeSchneider: Arbeitsamt – еще одна аудио пьеса Хельги Шнайдер
  • StudioBraun: Английский Переводчик – телефонный разговор между ничего не подозревающими продавцом ластика и членом Студии Браун
  • DeutscheBahn: Rossau – телефонный разговор между мужчиной из Саксонии и Компьютером расписания поездов DeutscheBahn
  • StudioBraun: ForumWaffenrecht – еще один телефонный разговор из Студии Брауна
  • Hart aber fair – отрывокизТВток-шоу «Hart aber fair»
  • Anne Will: Halbes Wahlrecht – отрывокизТВток-шоу «Anne Will»
11_11.jpg
  • SerifIssi: Expertenauskunft – Турецкая транскрипция телефонного разговора между экспертом по социальным вопросам и немного в замешательстве звонящим
12_12.jpg
  • Royal: Dѐbat – Французская транскрипция отрывка из ТВ дебатов между Николя Саркози и Сеголин Роял
13_13.jpg
  • Savater: Hermandad – Испанская транскрипция отрывка из радио-интервью с писателем Фернандо Саватером
14_14.jpg
  • Gaspenini: Calcio – Итальянская транскрипция отрывка из ТВ-интервью с футболистом Кристианом Пануччи
15_15.jpg
  • NguyenNgocNgan – Вьетнамская транскрипция отрывка из ТВ-интервью с футболистом NguyenNgocNgan
000_2.jpg
  • TeliaTelenor – Шведская /Норвежская транскрипция радио беседы из корпуса «Scandinaviansemicommunication»
18.JPG
  • SzymonMajewski – Польская транскрипция из отрывка ТВ ток-шоу
Корпус можно запустить онлайн, начиная с этого обзора (генерирован из файла корпуса COMA). Для того чтобы пользоваться корпусом офлайн нужно скачать zipfile и распаковать на компьютер.
Онлайн-демо (на примере HelgeSchneider: Arbeitsamt)
Онлайн-пользование в браузере
Можно использовать корпус онлайн (например, воспользовавшись браузером и не скачивая данные) для просмотра метаданных, транскрипций и записей.
Обычно начинают с обзора корпуса:
19.JPG
Обзор корпуса состоит из списка коммуникации (слева) и списка говорящих (справа).
При нажатии на тему в одном из списков, откроется информация по теме.
20.JPG
Для коммуникации, в верхней части списка указываются метаданные. Сюда входит список участвующих в коммуникации. Щелчок по говорящему предоставит соответствующую информацию с списке говорящих. В нижней части список всех документов (записи, транскрипции, визуализации и эксортные форматы), относящихся к этой коммуникации.
21.jpg
А именно:
  • Раздел EXMARaLDA связан с Основной транскрипцией EXMARaLDA, которую можно открыть и редактировать с помощью Редактора частей EXMARaLDA и Сегментированной транскрипцией EXMARaLDA, чей файловый формат используется для запросов в EXAKT.
  • Раздел Визуализация связан с визуализацией музыкального сопровождения в четырех форматах (HTML, RTF, PDF и XML), в списке высказываний (HTML), в списке слов (HTML) и (в старых корпусах) в отдельных визаулизациях транскрипции названий (HTML).
  • Раздел Экспорт связан с несколькими форматами экспорта. TEI – это файл XML, соответствующий принципам Инициативы по кодированию текстов. AG – это файл графической аннотации, который может использоваться для обмена данными с помощью разных инструментов аннотаций. EAF – это файл аннотации ELAN, который можно открыть и редактировать с помощью инструментов ELAN из MPI, Неймеген. Praat – это TextGrid, который можно открыть и редактировать с помощью программы Praat. CHAT – это формат файла редактора CLANCHILDES. И наконец, FOLKER – это файл, который можно открыть с помощью редактора транскрипции FOLKERIDS, Мангейм.

Визуализация HTML
При просмотре HTML версии визуализации музыкального сопровождения (и если корпус поддерживает аудио-записи) вам предоставят транскрипцию, связанную с флэш аудио-плеером:
22.jpg
В музыкальном сопровождении при нажатии на любую маленькую стрелочку верхнего ряда, плеер начнет проигрывать с выбранного момента аудиозаписи. Щелчок по любому числу верхнего ряда музыкального сопровождения перепрыгнет на соответствующее место в списке высказываний:
23.jpg
Здесь так же при нажатии стрелки около выражения запустится Флэш Аудио-проигрыватель. Кликая по числу в квадратных скобках обратно возвращаетесь к соответствующему отрезку визуализации музыкального сопровождения.

Программа
Дляавтономногоиспользованияможноскачатькорпусцеликом. Это особо полезно, если необходимо самим редактировать данные или сделать запросы корпуса. Для скачивания корпуса, нужно кликнуть на ссылку ZIP-архива и распаковать на жесткий диск. Это должно привести к нижеследующей структурированной директории:
24.jpg
В верхней левой директории должен быть файл корпуса .coma (для демо-корпуса – этот файл называется EXMARaLDA_DemoKorpus.coma – в старых корпусах .xml вместо .coma). Можно открыть этот файл с помощью корпус менеджера EXMARaLDA для просмотра, редактирования или запроса метаданных.
25.jpg
Для большей информации о том, как делать запросы в корпусе EXMARaLDA, необходимо посмотреть в документации CoMa и EXAKT.

Пример (английской коммуникации MontyPython: MyTheory):
При клике на название коммуникации (слева) открываются метаданные (тип, название проекта, ресурс; говорящие (сокращенный вариант), язык; место (дата, страна); запись (название, продолжительность), в каком формате (.mp3, .avi, .wav, .ogg, .webm и т.д.); транскрипция (название, регулировка, алгоритм сегментирования, кто транскрибировал, правила транскрипции, дата, статус), EXMARaLDA (транскрипция, сегментирования), способ представления (частично, RTF, PDF, выражения, слова), экспорт (TEI, EAF, Praat, FOLKER, AG, Chat, Plaintext)).
26.jpg
При клике на спикера в окне коммуникации откроется информация о нем (справа),
27.jpg
где указываются такие данные: пол, семья (статус), имя; дата, страна рождения; место; первый язык; где в коммуникации присутствует (список).
Предоставленные файлы в пункте Записи скачиваются, онлайном не прослушиваются.

Из пункта EXMARaLDA в формате транскрипции принимает следующий вид:
(начало)
28.jpg

(конец)
29.jpg

А сегментирование принимает такой вид:
(начало)
30.jpg

(конец)
31.jpg

Из пункта Форма просмотра, Частично:
32.jpg

В формате RTF:
33.jpg

В формате PDF:
34.jpg

В Виде выражений:
35.jpg

В виде списка слов:
36.jpg

Экспортировать данные можно в разных форматах. Например, в форме TEI будет выглядеть как:
37.jpg

Файл формата EAF примет вид:
38.jpg

В виде файла Praat будет скачиваться, например, как:
39.jpg

Файл FOLKER будет выглядеть как:
40.jpg

Файл вида AG:
41.jpg

Файл вида Chat:
42.jpg

Файл вида Plain text:
43.jpg

Для онлайн аудио-прослушивания или видео-просмотра необходимо выбрать пункт Способ просмотра: Выражения. В данном случае видео-фрагмент, взятый из ток-шоу, представляющий собой сам видео-документ в левом верхнем углу. Под ним список возможных вариантов (ELAN, TEI, Plaintext и т.д.). И справа список выражений, где также указываются данные: значок воспроизведения, номер фразы, номер кадра, автор слов и само выражение. При нажатии значка плей, начинается воспроизведение с выбранного момента.
44.jpg
При нажатии на одну из цифр открывается следующее окно:
45.jpg
Если кликнуть по мальнькой стрелочке возле номера кадра, начнется воспроизведения выбранного момента.
46.jpg